Loading...
机构名称:
¥ 1.0

受到NLP通用模型的成功的启发,最近的研究试图以相同的序列格式统一不同的视力任务,并采用自回归的转移器来进行序列预测。他们应用单向关注以捕获顺序依赖性并递归生成任务序列。但是,这种自回旋变压器可能不太符合视觉任务,因为视觉任务序列通常缺乏自然语言中典型地观察到的顺序依赖性。在这项工作中,我们对有效的多任务愿景通用师(MAD)进行了掩饰。疯狂由两个核心设计组成。首先,我们开发了一个并行解码框架,该框架引入双向关注,以全面捕获上下文依赖项并在par-allel中解释视觉任务序列。第二,我们设计了一个掩盖的序列建模ap-prach,通过掩盖和重构任务序列来学习丰富的任务上下文。以这种方式,疯狂通过一个网络分支来处理所有任务,并以最小的特定任务设计来处理简单的跨凝结损失。广泛的实验证明了疯狂作为统一各种视觉任务的新范式的巨大潜力。MAD与自回归对应物相比,同时获得了特定于任务的模型的竞争精度,可以实现卓越的性能和推理效率。代码将在https://github.com/hanqiu-hq/mad上发布。

arxiv:2403.07692v2 [CS.CV] 2024年3月14日

arxiv:2403.07692v2 [CS.CV] 2024年3月14日PDF文件第1页

arxiv:2403.07692v2 [CS.CV] 2024年3月14日PDF文件第2页

arxiv:2403.07692v2 [CS.CV] 2024年3月14日PDF文件第3页

arxiv:2403.07692v2 [CS.CV] 2024年3月14日PDF文件第4页

arxiv:2403.07692v2 [CS.CV] 2024年3月14日PDF文件第5页

相关文件推荐